人工智能网致力于为中国广大企业、企业家和商界、经济界人士,以及全球华人经济圈提供实时、严谨、专业的财经、产业新闻和信息资讯媒体。

当前位置:人工智能网 > 智能教育 > 人工智能学习打开了潘多拉魔盒,必须是在可控的范围内

人工智能学习打开了潘多拉魔盒,必须是在可控的范围内

来源:互联网作者:王林更新时间:2020-12-26 13:48:03阅读:

随着愈来愈多产品和流程会使用以机器学习为础的人工智能,相关的风险也随之而来,产生许多决策正确性的问题或道德损害。企业主管和董事会该如何因应与规避,才能善用机器学习创造的机会,同时确保适当管理有关的风险?

机器学习这种电脑软件,会吸收新信息,并据以改变做决定的方式;而如果机器学习导致投资亏损、产生有认知偏误的雇用或贷款作业,或者引发车祸,那该怎么办?企业应该让它们的智慧型产品和服务自动演变发展,还是应该「锁定」它们的算法,并定期更新?如果选择后者,应该在何时更新、更新的频率该是如何?企业又该如何评价和减少这些选择和其他选择带来的风险?

在整个企业界,随着以机器学习为基础的人工智能(AI),渗透进入愈来愈多产品和流程,高阶主管和董事会必须准备答复这些问题。本文根据作者在健康照护法律、道德、法规,以及机器学习方面的工作心得,提出一些重要概念,以便了解和管理这种先进科技的潜在缺点。

问题

仰赖机器学习的产品大量增加,对开发和使用它们的公司,或是提供数据来训练它们的公司,造成各种新风险。这是因为这类系统不见得一定会做出合乎道德或正确的选择。

原因

首先,这些系统常是根据机率来做决定。第二,它们所处的环境,可能以预料不到的方式演变。第三,这些系统的复杂性,让人很难决定它们是否出错或为何出错。

解决办法

高阶主管必须决定是要任由系统持续演变,或每间隔一段时间就推出锁定的版本。此外,他们在推出产品前后应进行适当的测试,产品上市后也应持续监测它的表现。

为何机器学习有风险

机器学习与之前的数位科技有一大不同,就是前者能独立做出愈来愈复杂的决定,像是要买卖哪些金融产品、车辆要如何因应路上的各种障碍、病人是否得了某种疾病等,而且,机器学习能持续因应新的数据资料来作调整。但是,这些算法不见得一直都能顺利运作,未必一定会做出合乎道德或正确的选择。这有三个根本原因。

可能性不等于正确性

第一,这些算法通常是仰赖各种情况的「发生机率」来做决定,像是某个人对贷款赖账,或是罹患某种疾病的机率。那些算法必须做出很大量的预测,因此其中有些预测可能不正确,只因为出错的可能性永远存在。这种出错的可能性取决于很多因素,包括用以训练算法的数据数量和质量、选用哪种机器学习法(例如,使用复杂数学模型的深度学习法,还是仰赖决策法则的分类树),以及这个系统是否只使用「可解释的算法」(也就是人们能够说明自己如何做成某个决定),这可能会使系统无法获得最高的正确性。

外在变因的影响

第二,机器学习运作的环境本身可能会演变,或是已经不同于当初开发算法时面对的环境。许多情况可能造成这种问题,其中最常见的两种情况,就是概念漂移(concept drift)和共变数偏移(covariate shift)。

在概念漂移方面,系统使用的输入数据及产出的数据之间的关系,长期下来并不稳定,或者可能会出现误判。以股票交易的机器学习算法为例。如果这套算法之前只使用一段市场波动小、经济高度成长时期的数据来训练,那么在碰到经济陷入衰退或激烈动荡时(像是新冠疫情大流行之类的危机),这套算法可能会表现不佳。随着市场出现变化,输入和输出数据之间的关系也可能改变,例如,企业的举债程

度和它的股票报酬之间的关系。类似的偏差情况,可能会在景气循环的不同时点发生在信用评等模型上。

在医学方面,概念漂移的一个例子,就是以机器学习为基础的诊断系统,使用皮肤图像作为输入数据来侦测皮肤癌,却没有做出正确诊断,因为这套系统未能适当掌握病人的肤色(可能因种族或日晒等因素而有不同肤色),与诊断决定之间的关系。这类信息,甚至常常没有记录在用以训练机器学习模型的电子病历里。

发生共变数偏移,是当使用算法时输入的数据,与训练演算时所用的数据不同。即使算法学习到的形态很稳定,而且没有出现概念漂移,仍可能发生共变数偏移。例如,医疗装置公司可能使用来自大型城市医院的数据,来开发以机器学习为基础的系统。只是一旦这种装置上市,乡村地区医疗人员输入这个系统的医疗数据,可能与深算法开发阶段输入的数据不太一样。城市医院可能有更多来自某些社会人口群体的病人,而这些人口群体可能罹患的疾病,在乡村医院里并不常见。可能只有等到些医疗装置上市,犯下比测试阶段更多的错误之后,才会发现这种差异。由于市场的多元性质,以及市场改变的速率,因此愈来愈难预测系统实际操作的环境将会发生什么情况,而且数据再多都无法掌握现实世界存在的种种细微差异。

系统的复杂性

机器学习可能做出不正确决定的第三个原因,与内置它的整体系统的复杂性有关。就以根据医生输入的图像来诊断疾病的装置为例,像是IDx-DR系统。这套系统可诊断糖尿病视网膜病变和视网膜黄斑部水肿等眼疾,而且是第一种获得美国联邦食品药物管理局(FDA)核准使用的具自主性、以机器学习为基础的医疗装置。任何诊断的质量,都取决于供检视的图像有多清晰、这个装置使用的算法、用以训练这种算法的数据、输入图像的医生是否受过适当训练等。要考察的因素这么多,因此难以评价这种装置是否可能出错、为什么会出错,更遑论要确定它会如何运作。

但做出不正确决定,并非机器学习唯一的风险。以下来看另外两种类别:经手人风险和道德风险。

经手人风险

机器学习不够完善,带来另一种重要挑战:不受特定企业或使用者控制的事物所导致的风险。

发生意外事故时,通常能根据可靠的证据,重建导致事故发生的情况。因此,发生事故时,高阶主管至少能对公司可能必须承担的责任,获得一些有用的估计。但机器学习通常内置于复杂的系统里,因此往往不清楚导致出错的原因,也就是不清楚哪一方或哪个「经手人」(例如,算法开发者、系统建构者,或某个合作伙伴),必须为某个错误负责,也不清楚那套算法本身、使用者输入的某些数据,或是用以训练算法的数据(这可能来自好几个第三方供应商)是否有问题。环境改变及机器学习的机率性质,造成更难把责任归给个某个经手人。其实,即使没有任何人为疏忽,都可能出现意外事故或不合法的决定;毕竟,出现不正确决定的可能性永远存在。

高阶主管必须知道,根据现行法律,自家公司何时可能面对法律责任,而法律本身也可能演变。就以医疗情况来说。法庭向来认为医生是做最后决定的人,因此,不太愿意把医疗产品出事的责任,归给制作医疗软件的人。但随着更多黑盒子式或自主性的系统做出诊断和建议,而没有诊所里的医生参与(或是参与极少),这种情况可能会改变。例如,若是机器学习系统建议病人接受非标准治疗(像是比通常标准高许多的药物剂量),而管制法规演变成只有在医生不遵守系统建议时,才最有可能面对损害责任,情况会如何?法规的这种改变,可能把责任风险从医生身上,转移到其他各方身上,包括机器学习为基础的医疗装置的开发者、参与开发算法的数据供应商,或是参与装设和建置算法的公司。

道德风险

自主做出决定的产品和服务,也必须解决各种道德难题,而这种要求带来额外的风险,以及法规和产品开发方面的更多挑战。学者现在已开始把这些挑战建构为「负责任的算法设计」问题。其中包括如何自动化进行道德推论的难题。例如,特斯拉(Tesla)为自家汽车开发的软件,应设定为纯粹功利主义的成本效益考察,还是应遵循康德学派路线,也就是不论有多大的利益,某些价值观绝对不可退让?即使答案是功利主义,要量化还是极为困难:例如,如何为车辆设定程序,让它面对三个老年人与一个中年人的生命时,能判断孰轻孰重?企业如何平衡隐私、公平、正确性和安全性之间的权衡取舍?所有这些种类的风险,能否完全避免?

道德风险也包括有关人口群体的偏误。例如,脸部辨识算法,对辨认有色人种就有困难;皮肤病变分类系统应用于不同种族的人,似乎正确性不一;再度犯罪预测工具,错误地给予黑人和西班牙语裔的人再犯高比率,信用评等系统则不公平地给予他们低分。机器学习系统已广泛用于许多商业用途,可能被认为在某些面向上对特定群体不公平。

若要定义何谓公平,并把这定义纳入算法,做法有很多,而且彼此可能互不兼容,因而使得问题变得更加复杂。贷款算法可接受校准(也就是说,在控制风险水准之后,算法所做的决定不受群体身份影响),却仍有太高比率拒绝贷款给信用良好的少数群体。因此,企业可能发现自己陷入进退两难的处境。如果它使用算法来决定贷款对象,可能很难避免根据「公平」的某个定义,有歧视某些群体之嫌的指控。不同的文化,也可能接受不同的定义和道德退让;这对供应全球市场的产品造成问题。2020年2月,欧盟委员会对人工智能发表的白皮书就指出这些挑战,并要求开发蕴含「欧洲价值观」的人工智能。但是,这种人工智能是否能轻易出口到拥有不同价值观的地区?

最后,所有这些问题都可能因模型不稳定而出现,也就是彼此近似的输入数据,却导致非常不同的决定。不稳定的算法,可能以非常不同、且可能不公平的方式,对待非常类似的人。

当然,所有这些考察,并不表示我们应该完全避免使用机器学习。相反地,高阶主管必须积极接受机器学习创造的机会,同时确保以恰当方式处理相关风险。

锁定还是不锁定?

领导人一旦决定采用机器学习,就面对下一个关键问题:公司应该让机器学习持续演变发展,还是应该每间隔一段时间就推出经过测试和锁定的版本?后者是否能缓和前述的那些风险?

这个问题与医学界碰到的问题类似。美国FDA迄今只核准有锁定算法的「软件即医疗装置」(software as a medicaldevice,也就是不需要硬件即可执行医疗功能的软件)。原因是:如果医疗装置的诊断程序或治疗途径,会以FDA不了解的方式持续改变,FDA就不愿意核准这些装置的使用。但FDA和其他管制机构目前的了解,锁定算法可能同样有风险,因为这未必能消除以下这些危险:

不正确的决定。机器学习算法通常是根据「估算的机率」来做决定,而锁定算法并不能改变这个事实。此外,输入更多资料,虽然通常能导致性能提高,却未必一定会如此,而且改善的数量也可能不同;未锁定算法的改善数量,可能因使用的系统或数据数量不同而提高或降低。我们很难了解算法在未锁定的情况下,可能会如何改变决策的正确性(或不正确性),但尝试了解这一点是很重要的。

环境挑战。同样也很重要的是,系统做决定的环境会不会演变、如何演变。例如,汽车自动驾驶系统运作的环境,会因为其他驾驶人的行为而持续改变。只要景气循环进入新阶段,定价、信用评等和交易系统,就可能面对市场机制变动。这些挑战造成机器学习系统必须与环境共同演变,以便系统能做适当的决定。

经手人风险。锁定算法,并不能消除内置了算法的系统本身的复杂性质。例如,使用第三方提供的劣质数据来训练算法,或是使用者的技能不同,还是可能造成错误。而要决定数据供应商、算法开发者、部署者和使用者的责任,仍然很具挑战性。

道德风险。锁定的系统,可能保留原创者都不知道的缺陷或偏误。例如,在分析乳房X光图像寻找乳癌迹象时,锁定的算法就无法从它面对的人口次群体中学习。不同种族的平均乳房密度可能不同,因此这套系统如果用来筛检在训练数据当中代表性不足的人口群体,就可能会导致诊断错误。同样地,如果用某个社经地位隔离的人口次群体来训练信用评等算法,那么这套算法就可能会像非法的金融歧视拒贷政策(redliningpolicy)一样,歧视某些贷款人。我们希望算法尽快改正这类错误,改正方法是在「观察」到更多来自先前代表性不足,甚至从未被辨识出来的人口次群体的数据时,能够自我更新。相反的,未被锁定的机器学习系统装置,如果大多是使用来自某个群体的数据来演变发展,长期下来就可能损害另一个或更多不同的群体。此外,可能很难看出这种装置在面对一个群体时,性能会在何时变得相对较差。

高阶主管可用的工具

因此,高阶主管要如何管理机器学习现有和新出现的风险?这方面的重要步骤,包括开发出适当的流程、加强管理阶层和董事会的熟练程度、提出恰当的问题,以及采用正确的心态。

多重测试与分析

把机器学习当人看待。高阶主管必须把机器学习视为活生生的实体,而不是没有生命的科技。正如对员工进行认知测试,无法显示他们被纳入企业现有团队之后会有什么表现,同样的,实验室测试也无法预测机器学习系统,在现实世界的性能。高阶主管应要求完整地分析员工、顾客或其他使用者会如何应用这些系统,以及他们对系统的决定有何反应。即使法规管制机构没有规定要这样做,企业可能也应该让新的机器学习产品,接受随机对照测试,以便在正式推出前,确保这些产品的安全、效用和公平。但他们可能也应该要分析,在各种类型使用者都存在的实际市场中,这些产品会做出什么决定,以了解产品对各种类型使用者所做的决定,在质量方面是否有差异。此外,企业应把算法所做决定的质量,与在相同情况下不使用算法所做的决定做比较。在大规模部署产品,尤其是全面推出那些未经过随机对照测试的产品之前,企业应考虑在有限的市场里测试它们,以便更了解产品在不同因素作用时的正确性如何,以及会有什么表现;这些因素包括使用者的专业知识不同、数据的来源不同,或是环境有变化等等。若算法在现实世界的环境下表现差劲,就显示必须改善或放弃这套算法。

参考标准认证机制

采用法规管制机构的想法,并先获得认证。企业在推出机器学习产品上市之前,应先拟定获得认证的计划。法规管制机构的做法,对如何进行这件事提供良好的方针。例如,2019年FDA发表一份讨论报告,建议一套新的法规构架,用以修改以机器学习为基础的「软件即医疗装置」。这份文件说明一套方法,可让这类软件持续改善,同时维护病人的安全,其中包括完整评价开发那套软件的公司或团队,以确保它拥有追求组织卓越和高品质的文化,这种文化能促使它定期测试自家的机器学习装置。企业如果不采用这种认证流程,可能会惹上法律责任问题,例如,对产品没有做到足够的实质审查。

许多新创公司提供服务,为客户认证产品和流程没有存在偏误、歧视、刻板印象、不公平和其他问题。一些专业组织,也为这类认证设计了标准,像是电机和电子工程师学会(Institute of Electrical and Electronics Engineers)、国际标准组织(International Organization forStandardization)等;Google之类的公司则提供人工智能道德服务,检视这类产品的多个面向,从用以训练系统的数据、这些系统的行为表现,到它们对福祉的影响,都包括在内。企业可能必须开发自己的类似构架。

运作后仍需实时检测

持续监测。随着机器学习产品和服务,以及它们运作的环境演变发展,企业可能会发现,自家的科技不像最初预期的那样运作。因此很重要的是,企业应制定一些方法,以查核这些科技是否在适当限制内运作。其他产业的情况可作为参考示例。FDA的「警戒计划」(SentinelInitiative)利用电子病历等不同的数据源,来监测医疗产品的安全性,并能强迫不合格的产品撤回。企业的监测计划,可能在许多方面都很类似一些领域目前使用的预防性维护工具和流程,像是制造业、能源公司或网络安全领域所用的。例如,企业也许可以仿照对信息系统防御能力进行例行测试时所用的方法,对人工智能进行所谓的对抗攻击。

探究四大面向

问恰当的问题。高阶主管和法规管制机构必须深入探究以下这些问题:

正确性和竞争力。如果不锁定算法,从使用机器学习系统获得的新数据数量,可能使系统性能改善多少?这种改善对企业有何意义?消费者对锁定和未锁定系统的利弊,了解到何种程度?

偏误。算法先前是用哪一种数据来训练?这些数据对算法最终要应用到的人口群体有多大的代表性?如果任由未锁定的算法长期学习,我们能否预测这种系统产出的结果,会比锁定的系统有较少的偏误?算法犯的错误,是否特别会对少数群体或其他群体造成影响?采取持续监测的做法,能否建「护栏」以防止算法出现歧视?

环境。产品的使用环境,长期下来会如何改变?是否存在不应让机器学习做决定的情况,如果有,是哪些情况?在环境本身改变的情况下,如何确保产品表现也适当地演变?在环境和产品的表现差距已变得太大时,应在何时下架产品?在环境的哪些界限之内,我们的产品可以顺应调整并顺利运作?我们的机器学习系统,在整个生命周期当中有多么有效运作和安全?

经手人。我们机器学习算法的运作,须仰赖哪些第三方的因素(包括数据源)?不同类型的使用者,例如,技能较差的人,会造成系统的表现有多大差异?其他组织有哪些产品或服务,使用我们的数据或机器学习算法,有可能导致我们面对法律责任风险?是否应让其他组织使用我们开发的机器学习算法?

明确、简洁的准则

针对商业风险拟定处理原则。企业必须为管理这些新风险建立本身的准则,包括道德准则;Google和微软等企业已经这样做。这类准则往往必须相当明确(例如,公司对「公平」采取什么定义),才能发挥效用,而且必须针对要处理的风险量身制定。如果你使用机器学习来做雇用决定,最好拥有简单、公平和透明的模型。如果使用机器学习来预测商品期货合约的价格,或许不必这么在乎这些数值,而更该注重机器学习系统做的任何决定,所允许的最大潜在财务损失。

幸好,制定和实施这些原则的历程并不孤单。高阶主管可以好好参考一些机构为此努力多年的成果,像是经济合作暨发展组织(OECD)开发出的第一套跨政府人工智能原则(2019年获得许多国家采用)。OECD的原则,是要促进开发出创新、可靠、负责任而又透明的人工智能,这种人工智能能尊重人权、法治、多元和民主价值,并推动包容性的成长、永续发展,以及人类福祉。它们也强调人工智能系统在整个生命周期当中,应维持有效运作、安全可靠,以及持续进行风险管理。

OECD最近启动的「人工智能政策观察站」,提供更多有用的资源,像是全面收集世界各地的人工智能政策。

控制风险尤为重要

机器学习的潜力巨大。但随着这种科技及其他形式的人工智能,纳入我们的经济和社会组成之中,它构成的风险也跟着增加。对企业界,减少这些风险,可能与妥善管理对机器学习的采用同样重要,甚至更加重要。如果企业不建立适当的实务做法来应付这些新的风险,可能很难在市场上推进发展。

标题:人工智能学习打开了潘多拉魔盒,必须是在可控的范围内

地址:http://ai.rw2015.com/edu/5409.html

免责声明:人工智能网为网民提供实时、严谨、专业的财经、产业新闻和信息资讯,更新的内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系站长,本网站将立即予以删除!。

返回顶部